Prism: inferencia multi-LLM eficiente con ballooning de memoria GPU
Descubre cómo Prism reduce costos en inferencia de múltiples LLMs mediante ballooning de memoria GPU, optimizando recursos sin sacrificar SLO. ¡Más eficiencia!
Descubre cómo Prism reduce costos en inferencia de múltiples LLMs mediante ballooning de memoria GPU, optimizando recursos sin sacrificar SLO. ¡Más eficiencia!
Descubre VIA-SD, un nuevo método de decodificación especulativa que acelera la inferencia de LLMs hasta 3x reduciendo rechazos mediante verificación jerárquica.
Descubre SpenseGPT: un método de poda one-shot que acelera la inferencia de LLMs hasta 1.2 veces en GPUs B200 con FP8, manteniendo la precisión del modelo.
Descubre cómo la fusión de operadores en la arquitectura Tensix reduce hasta un 37% la latencia en atención de LLM, manteniendo precisión superior al 98% en inferencia local.
Descubre cómo ReD (Reset and Discard) mejora la inferencia de LLMs a presupuesto fijo, aumentando la cobertura de respuestas correctas y reduciendo costos en tokens y USD.
Recover-LoRA recupera hasta 95% de precisión en modelos de 2 bits usando adaptación de bajo rango y destilación con solo 10k datos sintéticos.
Descubre SSSD, un método gratuito que acelera la inferencia de LLM hasta 2.9x sin necesidad de entrenamiento ni modelos auxiliares. Robusto en cambios de idioma y contexto largo.
Descubre cómo optimizar la inferencia de LLM eliminando el padding con un backend en C++ y sequence packing. Mejora el rendimiento de tu GPU.
KnapSpec acelera inferencia LLMs hasta 1.47x sin entrenamiento. Selecciona capas adaptativas como problema mochila. Optimiza rendimiento en secuencias.
Fast-dLLM++ acelera inferencia de LLM difusivos sin modificar modelo, aprovechando confianza heterogénea para lograr 37% más rendimiento sin perder precisión.
ViBE reduce el desequilibrio en la ejecución de MoE hasta un 45% en P90 TTFT, mejorando el cumplimiento de SLO en un 14%. Optimiza colocación de expertos según rendimiento GPU.
Optimiza la tasa de aceptación con pérdidas LK en decodificación especulativa, logrando hasta un 10% más de longitud.
Descubre OrcaRouter: el enrutador híbrido offline-online que alcanza 75.54% de precisión a solo $1 por mil consultas.